当前位置: 开发笔记 > 编程语言 > 正文

都会|前文_FlinkonYarn三部曲之三：提交Flink任务

作者：手机用户2502853881 | 来源：互联网 | 2023-07-22 06:57

篇首语：本文由编程笔记#小编为大家整理，主要介绍了FlinkonYarn三部曲之三：提交Flink任务相关的知识，希望对你有一定的参考价值。

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Flink on Yarn三部曲之三：提交Flink任务相关的知识，希望对你有一定的参考价值。

欢迎访问我的GitHub

本文是《Flink on Yarn三部曲》系列的终篇，先简单回顾前面的内容：

《Flink on Yarn三部曲之一：准备工作》：准备好机器、脚本、安装包；

《Flink on Yarn三部曲之二：部署和设置》：完成CDH和Flink部署，并在管理页面做好相关的设置；

现在Flink、Yarn、HDFS都就绪了，接下来实践提交Flink任务到Yarn执行；

前文链接

《Flink on Yarn三部曲之一：准备工作》

《Flink on Yarn三部曲之二：部署和设置》

两种Flink on YARN模式

实践之前，对Flink on YARN先简单了解一下，如下图所示，Flink on Yarn在使用的时候分为两种模式， Job Mode 和 Session Mode ：

Session Mode ：在YARN中提前初始化一个Flink集群，以后所有Flink任务都提交到这个集群，如下图：

Job Mode ：每次提交Flink任务都会创建一个专用的Flink集群，任务完成后资源释放，如下图：

接下来分别实战这两种模式；

准备实战用的数据(CDH服务器)

接下来提交的Flink任务是经典的WordCount，先在HDFS中准备一份文本文件，后面提交的Flink任务都会读取这个文件，统计里面每个单词的数字，准备文本的步骤如下：

SSH登录CDH服务器；

切换到hdfs账号： su - hdfs

下载实战用的txt文件：

wget https://github.com/zq2599/blog_demos/blob/master/files/GoneWiththeWind.txt

创建hdfs文件夹： hdfs dfs -mkdir /input

将文本文件上传到/input目录： hdfs dfs -put ./GoneWiththeWind.txt /input

准备工作完成，可以提交任务试试了。

Session Mode实战

SSH登录CDH服务器；

切换到hdfs账号： su - hdfs

进入目录： /opt/flink-1.7.2/

执行如下命令创建Flink集群， -n 参数表示TaskManager的数量， -jm 表示JobManager的内存大小， -tm 表示每个TaskManager的内存大小：

./bin/yarn-session.sh -n 2 -jm 1024 -tm 1024

创建成功后，控制台输出如下图，注意红框中的提示，表明可以通过38301端口访问Flink：

浏览器访问CDH服务器的38301端口，可见Flink服务已经启动：

浏览器访问CDH服务器的8088端口，可见YARN的Application(即Flink集群)创建成功，如下图，红框中是任务ID，稍后结束Application的时候会用到此ID：

再开启一个终端，SSH登录CDH服务器，切换到hdfs账号，进入目录： /opt/flink-1.7.2

执行以下命令，就会提交一个Flink任务（安装包自带的WordCount例子），并指明将结果输出到HDFS的 wordcount-result.txt 文件中：

bin/flink run ./examples/batch/WordCount.jar \\ -input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \\ -output hdfs://192.168.50.134:8020/wordcount-result.txt

执行完毕后，控制台输出如下：

flink的WordCount任务结果保存在hdfs，我们将结果取出来看看： hdfs dfs -get /wordcount-result.txt

vi打开wordcount-result.txt文件，如下图，可见任务执行成功，指定文本中的每个单词数量都统计出来了：

浏览器访问Flink页面(CDH服务器的38301端口)，也能看到任务的详细情况：

销毁这个Flink集群的方法是在控制台执行命令： yarn application -kill application_1580173588985_0002

Session Mode的实战就完成了，接下来我们来尝试Job Mode；

Job Mode

执行以下命令，创建一个Flink集群，该集群只用于执行参数中指定的任务(wordCount.jar)，结果输出到hdfs的wordcount-result-1.txt文件：

bin/flink run -m yarn-cluster \\ -yn 2 \\ -yjm 1024 \\ -ytm 1024 \\ ./examples/batch/WordCount.jar \\ -input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \\ -output hdfs://192.168.50.134:8020/wordcount-result-1.txt

控制台输出如下，表明任务执行完成：

如果您的内存和CPU核数充裕，可以立即执行以下命令再创建一个Flink集群，该集群只用于执行参数中指定的任务(wordCount.jar)，结果输出到hdfs的 wordcount-result-2.txt 文件：

在YARN管理页面可见任务已经结束：

执行命令 hdfs dfs -ls / 查看结果文件，已经成功生成：

执行命令 hdfs dfs -get /wordcount-result-1.txt 下载结果文件到本地，检查数据正常；

至此，Flink on Yarn的部署、设置、提交都实践完成，《Flink on Yarn三部曲》系列也结束了，如果您也在学习Flink，希望本文能够给您一些参考，也建议您根据自身情况和需求，修改ansible脚本，搭建更适合自己的环境；

欢迎关注51CTO博客：程序员欣宸

推荐阅读

input
利用 Node.js 和 Express（4.x 及以上版本）构建高效文件上传功能

本文介绍了如何使用 Node.js 和 Express（4.x 及以上版本）构建高效的文件上传功能。通过引入 `multer` 中间件，可以轻松实现文件上传。首先，需要通过 `npm install multer` 安装该中间件。接着，在 Express 应用中配置 `multer`，以处理多部分表单数据。本文详细讲解了 `multer` 的基本用法和高级配置，帮助开发者快速搭建稳定可靠的文件上传服务。 ... [详细]

蜡笔小新 2024-11-11 18:02:17
audio
使用HTML和JavaScript实现视频截图功能

本文介绍了如何利用HTML和JavaScript实现从远程MP4、本地摄像头及本地上传的MP4文件中截取视频帧，并展示了具体的实现步骤和示例代码。 ... [详细]

蜡笔小新 2024-11-15 00:19:42
input
解决Unreal Engine中UMG按钮长时间按住自动释放的问题

本文探讨了在Unreal Engine中使用UMG按钮时，长时间按住按钮会导致自动释放的问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-14 20:40:39
import
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
input
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34
input
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
import
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
import
SIoU Loss 的原理详解及代码实现分析

本文详细解析了 SIoU Loss 的原理及其在边界框回归任务中的优势，并通过代码实现对其性能进行了深入分析。SIoU Loss 作为一种改进的损失函数，能够更有效地优化目标检测模型的边界框回归效果，提升模型的准确性和鲁棒性。文中还提供了具体的代码示例，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-09 18:30:01
import
解决针织难题：R语言编程技巧与常见错误分析

解决针织难题：R语言编程技巧与常见错误分析 ... [详细]

蜡笔小新 2024-11-08 15:02:19
import
C++ 开发实战：实用技巧与经验分享

C++ 开发实战：实用技巧与经验分享 ... [详细]

蜡笔小新 2024-11-07 20:31:03
import
REST与RPC：选择哪种API架构风格？

在探讨REST与RPC这两种API架构风格的选择时，本文首先介绍了RPC（远程过程调用）的概念。RPC允许客户端通过网络调用远程服务器上的函数或方法，从而实现分布式系统的功能调用。相比之下，REST（Representational State Transfer）则基于资源的交互模型，通过HTTP协议进行数据传输和操作。本文将详细分析两种架构风格的特点、适用场景及其优缺点，帮助开发者根据具体需求做出合适的选择。 ... [详细]

蜡笔小新 2024-11-07 12:00:58
import
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
数组
利用PaddleSharp模块在C#中实现图像文字识别功能测试

PaddleSharp 是 PaddleInferenceCAPI 的 C# 封装库，适用于 Windows (x64)、NVIDIA GPU 和 Linux (Ubuntu 20.04) 等平台。本文详细介绍了如何使用 PaddleSharp 在 C# 环境中实现图像文字识别功能，并进行了全面的功能测试，验证了其在多种硬件配置下的稳定性和准确性。 ... [详细]

蜡笔小新 2024-10-30 15:53:37
md5
HTML5大文件传输技术深度解析与实践分享

本文深入探讨了HTML5在Web前端开发中实现大文件上传的技术细节与实践方法。通过实例分析，详细讲解了如何利用HTML5的相关特性高效、稳定地处理大文件传输问题，并提供了可供参考的代码示例和解决方案。此外，文章还讨论了常见的技术挑战及优化策略，旨在帮助开发者更好地理解和应用HTML5大文件上传技术。 ... [详细]

蜡笔小新 2024-10-28 18:59:50
list
将所有文档高效压缩并存储至Azure Blob容器中

我正致力于利用Azure Functions和System.IO.Compression库，将大量文件高效地压缩并存储到Azure Blob容器中。这种方法不仅提高了存储效率，还优化了数据管理流程。通过这种方式，可以显著减少存储成本，并提升数据访问速度。 ... [详细]

蜡笔小新 2024-10-26 11:01:06

手机用户2502853881

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章